即時偵測細部動作 電腦理解人類肢體語言

作者: 詹益瑋
2017 年 07 月 12 日

語音辨識技術日新月異的同時,電腦似乎也開始理解人類的肢體語言。卡內基美隆大學(CMU)機器人學院的研究團隊近日發布其最新成果,可讓電腦在單一鏡頭內即時偵測複數人的姿勢、動作,以至臉部、五指等細節,藉此辨識人與人、人與物之間的互動關係,以期開創新一種人機互動模式。

機器人學院副教授Yaser Sheikh指出,人們透過肢體動作溝通的頻率與透過言語相去不遠,現今的電腦對此仍多少存有一些障礙。透過此新發布的辨識技術,人們能以更自然的方式與機器溝通,比方單純指向某物來對電腦下指令等;機器也能感測周遭人類彼此間的非言語溝通細節,諸如當下的動作、情緒,適不適合被打斷等,在餐廳、車道等社會空間中提供更進一步的服務。提供新的人機互動機制之外,Sheikh也期望令人們藉此更了解周遭的世界。

辨識群體中每個人的動作,乃至彼此間可能的互動情形,對電腦是不小的挑戰;尤其當群體較龐大時,純靠單體動作捕捉程式顯然不敷使用。另一方面,鑑於單一鏡頭難以捕捉手部動作全貌,加上相對身體、表情等動作缺乏已標註過的影像資料庫,手勢辨識顯得更為棘手。為此,該新技術的研發主要借助於CMU的Panoptic Studio多重攝影系統完成–此圓頂攝影棚具備超過500顆影像感測器,包含30個高畫質攝影機,可360度辨識棚內所有人的動作。

Sheikh表示,Panoptic Studio可同步強化肢體、臉部與手部的辨識訓練,模型由2D轉3D亦有助於自動建立家住過的影像資料。藉此,該研究團隊由上而下,先單獨定義影像場景中出現的各個身體部分,諸如手臂、腿部與臉部等,最終將所有部分接合起來為特定個體,以利電腦進行辨識;至於較棘手的手勢辨識,則透過該系統加速建立資料庫,令電腦單憑部分手部影像即可連結其他500多個相關角度,以此較精準地判斷鏡頭內個體的手部動作。

此辨識技術賦予機器理解人類行為的能力,應用上具有不少潛力,諸如協助自動駕駛車輛監控周遭行人的行為,藉此預測其動向、強化安全性;以運動賽事分析來說,則可判斷各球員的場上位置、當下的動作,進一步推斷其目前甚至未來的行動;未來甚至可望針對特定病徵協助進行診斷、復健等醫療相關作業,比方自閉症、憂鬱症、學習障礙等。

現階段為強化推廣,Sheikh表示,其研究團隊已釋出多人、手勢判別相關的程式碼於網路上。目前該技術已被廣泛採用於諸多研究群組,並有超過20個含汽車廠商在內的商業組織對此表示興趣。

標籤
相關文章

手勢/心跳皆可偵測 140GHz MIMO雷達超有感

2019 年 05 月 29 日

2017年營收亮眼 AMD續攻高運算/GPU市場

2018 年 02 月 05 日

新一代Arm Project Trillium亮相 AI運算效能再攀升

2018 年 02 月 26 日

英特爾重金收購Mobileye 自駕車布局更添勝算

2017 年 03 月 16 日

WDC力拱RISC-V x86/ARM架構出現新對手

2017 年 12 月 05 日

神經型態晶片成功辨識氣味 機器嗅覺取得重要突破

2020 年 03 月 19 日
前一篇
凌力爾特發布150V高壓側N通道MOSFET驅動器
下一篇
兼具效能與低損耗 新一代SiC二極體優化系統